干货:转录组生信分析流程大比拼,你pick哪一款 | 转录调控专题
RNA-seq是转录组研究的必要技术,自推出以来,已开发出数百种分析工具,而分析中的不同步骤所涉及到的权衡取舍(比如速度、资源耗费、灵敏度、准确性等)是至关重要的。RNA-seq分析内容包括序列比对、转录本组装、表达定量、差异分析、可变剪切、融合基因检测、突变分析、RNA编辑等。通常的分析并不需要跑完全部流程,可以基于自身需要进行简化。那么关于这些分析工具是否有在成本和性能限制的情况下最佳准确性的组合呢?
2017年Nature Communication发表了转录组分析流程相关研究,对15个样品(正常样品、癌细胞和干细胞,短读长和长读长测序数据)的转录组数据,利用39个分析工具,约120种常见组合方式进行的约490次深入分析, 并以测序质量控制联盟(SEQC)的qPCR检测结果做为阳性对照,全面评估RNA-seq的分析工作流。研究人员总结出一套普适性流程,如下图所示:
RNA-seq分析的第一步通常是识别一组表达的转录本,通常涉及将reads与合适的参考序列比对,然后基于比对重构转录本。通常使用基因组或转录组序列作为参考,以参考基因组作为参考可以检测新的转录本,但需要耗费计算资源的reads拼接比对;以转录组序列作为参考的reads比对相对而言更容易,但不允许检测新的转录本。如果研究物种不存在可靠的参考序列(基因组或转录组),则可以使用从头组装来识别转录本,即无“参”转录组,没有合适的参考序列,从头组装出转录本序列,再进行转录本的定量。下面从几个方面来比较不同工具和工具组合的性能。
研究人员评估了TopHat、STAR和HISAT2在比对和剪切点预测上的性能。STAR始终拥有最高比例的唯一映射reads对,即有最高的基因组上有唯一比对位置的reads比例。与TopHat和HISAT2不同的是,STAR只保留双端reads都比对到基因组的序列,并且对低质量比对(允许更多的错配碱基和soft-clip事件)的容忍度高。soft-clip事件表示reads末端存在低质量碱基或接头导致比对不上的事件,STAR会自动尝试截去未比对部分,只保留比对上的部分,而TopHat则不允许soft-clip事件。就平均比对速度而言,HISAT2分别比STAR和TopHat快2.5倍和快约100倍。
转录组或RNA测序得到的reads与DNA测序不同的是,reads可能来源于2个(或多个)外显子区域,导致在比对时reads的一端比对在第一个外显子的后面部分,另一端比对在第二个外显子的前面部分(如下图的Abnormally mapped reads),从而形成剪切点(junction位点),具有junction位点的reads称为junction reads,其对转录本拼接、鉴定、可变剪切分析和差异分析都具有重要的意义。
研究人员通过韦恩图展示了不同比对工具检测到的共有和特有的剪切点(如下图),数字代表工具检测到的剪切位点数目,百分数代表每个集合的剪切点被验证的比例。以dbEST数据库中有至少2个表达序列标签支持的位点为阳性对照。
结果显示,HISAT2在所有样本中具有最高的剪接点验证率(80%-91%),虽然检测或预测到的剪切点总数明显少于TopHat或STAR。
在基于剪切比对后,可以使用转录组组装来识别表达的转录本集。研究人员比较了二代测序数据中应用最广泛的两款转录组拼装工具Cufflinks和StringTie。对于比对部分,使用了TopHat、STAR和HISAT2。
除了短读长异构体检测方法外,研究人员对IDP(异构体检测和预测)预测工具也进行了研究,IDP使用混合方法,使用短读长辅助长读长进行异构体检测(比对基于GMAP和STARlong)。预测的异构体或转录本与GENCODE v19中的参考转录组注释进行比较来测量准确性,GENCODE v19中缺失的转录本被认为是误报(FP),即假阳性。
通常每个转录本中包含的外显子数目可以作为转录本拼装质量的一个评价标准, 一般认为单外显子转录本可信度最差。在单外显子转录本数目方面,Cufflinks占比30%左右,StringTie占比15%左右,这些单外显子转录本90%左右为假阳性(FP)。就转录本拼接数目方面,StringTie比Cufflinks多50-200%。IDP组装出的都是多外显子转录本(无法识别单外显子转录本),其外显子数目分布与GENCODE v19更相似。但是Iso-Seq算法相对于GENCODE而言有94%的单外显子转录本和77%的多外显子转录本缺失,反映Iso-Seq方法在检测新转录本时有更高的灵敏度,但假阳性较高。
对于基因水平的组装,IDP的的准确性和灵敏性都是最好的,IDP和StringTie拼装出更多的多转录本基因(下图b),而Cufflinks比StringTie更为准确和灵敏。
对于转录本水平的组装,IDP的准确性比其他工具高20%,敏感性介于StringTie(敏感性更高)和Cufflinks(敏感性稍低)。基于短读长的组装工具中,StringTie的转录水平精度平均比Cufflinks高11%,转录水平灵敏度高25%;组装速度StringTie比Cufflinks快约60倍,比IDP快约50倍。
当缺乏参考基因组或转录组时,可以使用从头组装构建转录本。研究人员评估了三种广泛使用的转录本从头组装工具Trinity、Oases和SOAPdenovo-Trans。
Trinity倾向于预测更长的异构体和更多的基因和转录本,Oases在所有样品中始终产生最高的N10至N50值,表明其在检测长异构体方面具有优势。SOAPdenovo-Trans在高表达基因处有一个峰值,表明其检测高表达异构体的强烈倾向性,而且在比对质量(与参考的一致性百分比)上平均比Trinity和Oases高3%。将重构的转录本与参考注释进行比较,SOAPdenovo-Trans和Trinity分别具有更高的内含子水平精度和灵敏度,在内含子链水平精度上,Oases和Trinity要优于SOAPdenovo-Trans。
传统的表达分析是将reads直接与参考基因组或转录组比对,然后估计转录本丰度。如果需要检测新鉴定转录本的丰度,则可以使用StringTie和Cufflinks等转录组组装工具。当只关注已经注释基因的定量时,可以使用reads进行直接比对参考转录组,然后使用RSEM和eXpress等工具估计丰度。比如经典的无参转录组先基于从头组装工具组装出参考转录组。
基于转录本的定量还有一种方式是不经比对而直接判断reads来源于哪个转录本的,相较而言更节省计算资源。Sailfish、Salmon、quasi-mapping和kallisto是这一计算方式的代表,旨在解决每个reads由哪个异构体生成的问题。
研究人员比较了基于基因组比对的定量工具StringTie和Cufflinks(使用不同的比对工具),基于转录组比对的定量工具eXpress和Salmon-Aln,不经比对的定量工具kallisto、Sailfish、Salmon-SMEM和Salmon-Quasi以及基于长读长的IDP(使用不同的短读长和长读长比对工具),对某样本使用上述组合得到基因表达谱,将表达量取对数后进行Spearman秩和相关性分析评估表达谱的相似性。结果显示Cufflinks的定量结果与其他工具相关性最差(小于0.4),不需要比对直接定量的工具与StringTie计算的结果更相近 ,相关系数0.6-0.8。Salmon-SMEM与基于转录组比对的工具eXpress和Salmon-Aln聚在一起,但是Salmon-SMEM的运行速度更快。
研究人员还比较了同种样本不同测序读长的数据(MCF7-100和MCF7-300)以评估定量稳定性。两个不依赖于比对的定量工具kallisto和Salmon-SMEM具有最一致的定量结果。整体上看,基于STAR的比对结果的定量稳定性低于基于HISAT2的比对,而作为短读长比对工具,HISAT2似乎在预测一致性方面最有效。综上,不基于比对的定量是高效的,而HISAT2和Stringtie的组合是基于比对的定量工具中性能最好的,但速度比不基于比对的工具慢一个数量级。通过比较不同比对工具,研究人员认为在具有挑战性的样本分析上,HISAT2和TopHat要优于STAR。
识别不同样本或不同处理条件下的差异表达基因集是许多RNA-seq的重要目标,有许多方法可以准确检测差异表达的基因,包括基于reads count的DESeq2、limma和edgeR,基于组装技术的cuffdiff和Ballgown和不经过比对定量进行差异分析的sleuth。以SEQC样本(SEQC-A vs. SEQC-B和SEQC-C vs. SEQC-D)中的1001个有qRT-PCR定量过得基因作为对照,评价工具差异分析的性能。
在所有的组合中,DESeq2表现最佳,而sleuth、limma、edgeR性能略低一点。对于准确度而言,Cuffdiff和Ballgown的准确度始终低于基于reads count的工具。基于reads count的工具比基于组装的工具更高效,而不经过比对直接定量的工具Salmon、kallisto能够获得高质量的差异分析结果。对于AUC-30的估计中,edgeR表现最好,而DESeq2与之差别不大。
检测基因组和转录组变异对于了解可能影响基因表达调控和疾病相关变异至关重要,通常使用 SAMtools mpileup和GATK的HaplotypeCaller进行RNA-seq的变异分析。分析发现,与TopHat和STAR不同的是,使用HISAT2进行比对时GATK和SAMtools具有相似的性能,而一般情况下,两者在不同样本上的执行时间是相似的。
RNA-seq的另一个重要应用是检测融合基因,融合基因一般在各种癌症类型的发生发展中发挥着关键作用。一般使用JAFFA、STAR-Fusion、TopHat-Fusion、FusionCatcher和SOAPfuse从RNA-seq中识别融合事件。除了基于短读长的分析工具外,IDP-fusion和Iso-Seq可以从长读长RNA-seq数据识别融合基因。
研究人员以MCF-7乳腺癌细胞系中的71个经过验证的基因融合去评估上述工具。FusionCatcher具有最敏感和最准确的预测,SOAPfuse也表现出更高的灵敏度,而基于长读长的IDP-fusion表现出最好的准确度。
从运行速度上,STAR-Fusion比其他工具快10倍以上,而FusionCatcher和TopHat-Fusion具有更高的计算资源需求。
总结:RNA-seq分析中工具和计算方法的选择对分析的准确性和运行时间有很大影响。HISAT2具有最快和最精确的拼接比对,尽管在敏感性上不如STAR,因此在涉及可变剪切分析的流程中,可以优先考虑HISAT2。而在大多数情况下,Stringtie在速度和准确性上都要好于Cufflinks。DESeq2和edgeR提供了最准确的差异分析,可以作为差异分析的首选。而当使用HISAT2作为比对工具时,GATK和SAMtools对于变异分析是一样好的。
虽然缺少一些单外显子异构体,但是IDP和Iso-Seq等长读长方法可以识别出许多短读长技术遗漏的新的多外显子转录本,表明长度长在鉴定新的多外显子转录本上的优势,而且其在RNA融合事件的准确预测上也有明显优势,虽然可能有更高的实验成本。Salmon-SMEM和kallisto等无需比对工具具有最一致和准确的定量,如果不需要检测新的异构体(可能仅适用于少数模式物种,其具有相对完善的异构体信息),Salmon-SMEM和kallisto可以作为最准确但节省资源的解决方案。
研究人员通过不同的工具组合分析测试数据集,揭示了转录组分析涉及到的工具到底哪个更胜一筹。虽然从测试数据集分析中可以得出每款工具的性能和整体分析上更具优势的工具组合,但是对于我们关注的特定数据集或目标基因可能并不一定完全适用。如果有兴趣、有分析能力,对于个人而言也可以考虑使用不同的组合分析同一目标数据集,然后以实验验证结果作为评价指标,但是对于绝大部分研究者则是没有必要的。
Sahraeian SME, Mohiyuddin M, Sebra R, Tilgner H, Afshar PT, Au KF, Bani Asadi N, Gerstein MB, Wong WH, Snyder MP, Schadt E, Lam HYK. Gaining comprehensive biological insight into the transcriptome by performing a broad-spectrum RNA-seq analysis. Nat Commun. 2017 Jul 5;8(1):59. doi: 10.1038/s41467-017-00050-4. PMID: 28680106; PMCID: PMC5498581.
Gao Y, Wang J, Zhao F. CIRI: an efficient and unbiased algorithm for de novo circular RNA identification. Genome Biol. 2015 Jan 13;16(1):4. doi: 10.1186/s13059-014-0571-3. PMID: 25583365; PMCID: PMC4316645.
用户文章 plant journal-红豆杉茎的组织特异性研究发现韧皮部TmMYB3参与紫杉醇生物合成的转录调控机制
所见即所得,绘图高规格联川云平台,让科研更自由